package com.ai.springai.util;

import org.apache.pdfbox.Loader;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import java.io.File;
import java.io.IOException;

public class TransformerUtil {

    /**
     * pdf转文字
     */
    public static String pdfToStr(File file) throws IOException{
        // 加载PDF文档
        PDDocument document = Loader.loadPDF(file);

        // 创建一个PDFTextStripper实例来提取文本
        PDFTextStripper pdfStripper = new PDFTextStripper();

        // 从PDF文档中提取文本
        String text = pdfStripper.getText(document);

        if (document != null) {
            document.close();
        }

        return text;
    }

}
